NVIDIA AI性能计算更正:为什么RTX 4090抢购,而工作站A6000相对乐观?
本来有点累了,继续坚持写这篇主要是为了更正补充,以避免我之前的疏漏误导到读者朋友。
在昨天发了《GPU禁令限制计算 & NVIDIA A800/H800/L40等替代分析》之后,有专家朋友热情地给我指出了其中的问题:
“TF32只是NV GPU处理时内部的存储格式,表达的还是32位单精度;TPP算的是Bit length of operation”——也即是说,我之前提出的用TF32计算要乘以19是不妥的。
还是在https://www.bis.doc.gov/index.php/documents/federal-register-notices-1/3353-2023-10-16-advanced-computing-supercomputing-ifr/file 那份文档中,相关的具体描述如下:
Technical Notes:
1. ‘Total processing performance’ (‘TPP’) is 2 x ‘MacTOPS’ x ‘bit length of the operation’, aggregated over all processing units on the integrated circuit.
a. For purposes of 3A090, ‘MacTOPS’ is the theoretical peak number of Tera (1012) operations per second for multiply-accumulate computation (D=AxB+C).
b. The 2 in the ‘TPP’ formula is based on industry convention of counting one multiply-accumulate computation, D=AxB+C, as 2 operations for purpose of datasheets. Therefore, 2 x MacTOPS may correspond to the reported TOPS or FLOPS on a datasheet.
c. For purposes of 3A090, ‘bit length of the operation’ for a multiply-accumulate computation is the largest bit-length of the inputs to the multiply operation.
d. Aggregate the TPPs for each processing unit on the integrated circuit to arrive at a total. ‘TPP’ = TPP1 + TPP2 + .... + TPPn (where n is the number or processing units on the integrated circuit).
这里的MacTOPS,指的就是一次浮点计算的乘加操作,2x(乘以2)的意思是一次乘加算2个FLOPS,这就相当于在芯片(GPU等)厂商datasheet文档里给出的TOPS或者FLOPS数值。也就是说,NVIDIA列出的性能已经把MacTOPS做x2处理了。
还有一点,就是计算时选择输入到乘法操作的最大位长度。我请教了一位专家朋友,NVIDIA的TPP应该用FP16 Tensor TFLOPS with FP16 Accumulate(“使用FP16累加的 FP16 Tensor TFLOPS 峰值”) 或者 INT8 Tensor TOPS 来计算。也就是说,我昨天使用FP32 Tensor TFLOPS with FP16/BF16 Accumulate可能有问题,有些型号(比如RTX 4090)的计算结果需要更正,下文中我会列出更完善的表格。
我还在网上看到了一个帖子https://www.zhihu.com/question/626583840/answer/3254945640,相比之下我的水平差了不少啊:)当然也有上学时没学好英文的原因吧。这位大神做了以下的表格:
正如下面这段Note 2所说,对于TPP性能低于4800的芯片,只要不是用于数据中心,按这次的3A090条款应该可以不受限制。
Note 2 to 3A090: 3A090 does not apply to items that are not designed or marketed for use in datacenters and do not have a ‘total processing performance’ of 4800 or more. For integrated circuits that are not designed or marketed for use in datacenters and that have a ‘total processing performance’ of 4800 or more, see license exception NAC.
也就是说,“对于不面向datacenter的芯片,只要TPP小于4800,就直接不适用3A090,而4090的TPP大于等于4800,所以和面向datacenter符合3A090.b的芯片一样需要使用License Exception NAC。”
目前来看,RTX 4080、4070等性能低些的游戏显卡应该不会受限。RTX 6000 Ada在算力上比4090还要高一些,无论它算不算数据中心芯片,看来幸免的可能都不大?
NVIDIA GPU限售型号估算表(仅供参考)
(图片点开后可缩放)
这次更新的表格,我增加了ECCN 3A090.a和ECCN 3A090.b两行。如果TPP(TF算力*位宽)直接超出4800我就会标红,比如RTX 4090改用NV公布的FP16 Tensor TFLOPS with FP16 Accumulate修正计算之后,其TPP达到了5284.8,也进入了ECCN 3A090.a的范围。
对于TPP在4800以内的,比如L40和RTX A6000,我看它们也符合ECCN 3A090.b范围。但区别就是L40属于数据中心产品,而A6000则不一定?毕竟许多塔式工作站都不放在机柜上使用。
NVIDIA RTX A6000专业显卡,我还是希望它能在工作站上“存活下来”
至于之前坊间传言的RTX 4090在游戏娱乐市场还可以卖的消息,目前还没有看到官方确凿证据。不过我感觉有一点,双宽涡轮版的4090后续恐怕存在困难?适合高密度部署的这种显卡,在渠道里价格已经涨离谱了。
扩展阅读:《企业存储技术》文章分类索引(微信公众号专辑)》
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流可加微信:490834312。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage
长按二维码可直接识别关注
历史文章汇总:http://www.toutiao.com/c/user/5821930387/
http://www.zhihu.com/column/huangliang
点击下方“阅读原文”,查看更多历史文章↓↓↓